TP 2 Clasificacion. Tomas Palazzo y Axel Fridman
Cargamos las librerias
library("ggplot2")
library("GGally")
df = read.csv("lluviaAus.csv")
Seteo de semilla random
set.seed(329)
Limpieza y pre procesamiento de datos:
df$RainToday = as.factor(df$RainToday) # paso variables categoricas como factor
df$RainTomorrow = as.factor(df$RainTomorrow)
df$X <- NULL # borro columna X ya que sospechamos que no representa nada sino que es algun tipo de "id" que quedo grabado en el dataframe y no tiene influencia en la observacion.
Chequeamos que cada columna sea del tipo correcto
str(df)
'data.frame': 1000 obs. of 12 variables:
$ MinTemp : num 17.8 9 7.8 6.5 9 17.4 18.6 18.9 16.4 8.7 ...
$ MaxTemp : num 25.2 16 12.2 17.5 22.6 33.4 32.6 35.5 22.9 22.1 ...
$ Rainfall : num 0 0.8 1.8 0 0 0 0 0 0 0 ...
$ Evaporation : num 4 1.6 0.6 2 2.8 6.8 9 15.2 3.6 3 ...
$ Sunshine : num 6.4 7.4 5.4 9.7 9.5 10.5 11.8 12.2 10.4 8 ...
$ WindSpeed3pm: int 13 26 22 7 11 20 15 31 13 15 ...
$ Humidity3pm : int 66 53 84 47 42 18 38 13 57 39 ...
$ Pressure3pm : num 1013 1013 1026 1025 1016 ...
$ Cloud3pm : int 7 7 6 2 5 1 1 1 2 5 ...
$ Temp3pm : num 24.4 14.8 10.5 17.2 21.6 32.1 29.8 34.9 21.8 21.5 ...
$ RainToday : Factor w/ 2 levels "No","Yes": 1 1 2 1 1 1 1 1 1 1 ...
$ RainTomorrow: Factor w/ 2 levels "No","Yes": 1 1 2 1 2 1 1 1 1 1 ...
Divido dataset en train y test
sample <- sample(c(TRUE, FALSE), nrow(df), replace=TRUE, prob=c(0.8,0.2))
dftrain <- data.frame(df[sample, ])
dftest <- data.frame(df[!sample, ])
Analisis exploratorio de datos y visualizaciones:
g = ggpairs(df, progress = FALSE, bins=10)+theme_bw()
g

Lo que observamos es que hay variables que estan muy correlacionadas
linealmente, como la de temperatura maxima y temperatura a las 3pm. Y
otras que parecen ser muy poco relacionadas como la humedad y la
presion.
print(paste("Correlacion humedad y presion (baja) " , cor(df$Humidity3pm, df$Pressure3pm) ))
[1] "Correlacion humedad y presion (baja) 0.0456887832592021"
print(paste("Correlacion maxTemp y temp a 3pm (muy alta)" , cor(df$Temp3pm, df$MaxTemp) ))
[1] "Correlacion maxTemp y temp a 3pm (muy alta) 0.980580835987693"
Tambien notamos que aproximadamente 4/5 de las observaciones no
llueve, tanto ese mismo dia como el siguiente.
table(df$RainToday)
No Yes
802 198
table(df$RainTomorrow)
No Yes
794 206
Pero no son para nada independientes si llueve hoy y si llueve
mañana. Ya que, si solo tuviera de informacion estas 2 columnas, dado
que llovio hoy la nueva probabilidad de que llueva mañana es
aproximadamente 65/(97+65) =aprox 40% mucho mas que el 20% naive.
dfLluvias = df[c("RainToday", "RainTomorrow")]
table(dfLluvias)
RainTomorrow
RainToday No Yes
No 674 128
Yes 120 78
Ejercicio 2
ggplot(df, aes(x=Sunshine, y=Humidity3pm, color=RainTomorrow)) +
geom_point()

Observamos cosas muy relevantes, los dias que va a llover mañana,
tienen mayor humedad y menos sol, y los dias que no llovera mañana
tienen todos mucho mas sol y la humedad en promedio es mas baja. A su
vez hay varios dias, en su mayoria dias que llovera mañana, cuyo nivel
de sol es 0, lo cual genera esa columna en el lado izquierdo. Tambien
vemos que si bien hay muchos dias que tienen mucho sol y poca humedad
(los dias que no llovera mañana), no vemos casi ninguna observacion con
poco sol y poca humedad, lo cual nos podria hablar de cierta relacion
humedad - sol. Nosotros pensamos que la humedad tiene mayor capacidad
predictiva (si se tomara una sola y no en conjunto ambas), ya que la
variable sunshine esta mucho mas dispersa para los dias que No llovio al
dia siguiente, lo analizaremos en dos graficos de densidad.
ps<-ggplot(df, aes(x=Sunshine, fill=RainTomorrow)) +
geom_density(alpha=0.4) + labs(x= "Nivel de radiacion solar (Sunshine)",
subtitle="Grafico densidad radiacion solar") + geom_vline(xintercept=7.8, size=0.5, color="red")
ps

ph<-ggplot(df, aes(x=Humidity3pm, fill=RainTomorrow)) +
geom_density(alpha=0.4) + labs(x= "Nivel de humedad (Humidity3pm)",
subtitle="Grafico densidad humedad") + geom_vline(xintercept=62, size=0.5, color="red")
ph

Despues de ver estos 2 graficos notamos que no es facil dar un punto
de corte para diferenciar las 2 clases solamente tomando una variable.
Ya que si tomasemos aproximadamente 7.8 de punto de corte para la
radiacion solar o 62 para la humedad como punto de corte, de todas
formas tendrias bastante error ya que las clases se solapan mucho
mirandolas unidimensionalmente. Tomamos estos valores de referencia como
para decir que ningun corte es bueno, estos ni siquiera tienen en cuenta
la diferencia de proporcion de clases. En definitiva no nos casamos con
ninguna variable.
Ejercicio 3. Los boxplot no son buenos graficos. Pueden ocultar
demasiada informacion cuando hoy en dia tenemos la capacidad de
procesarla.
p2<-ggplot(df, aes(y=Humidity3pm, x=RainTomorrow, fill=RainTomorrow)) +
geom_boxplot() + labs(x= "Nivel de humedad (Humidity3pm)",
subtitle="Boxplots humedad segun lluvia mañana")
p2

p3<-ggplot(df, aes(y=Sunshine, x=RainTomorrow, fill=RainTomorrow)) +
geom_boxplot() + labs(x= "Nivel de radiacion solar (Sunshine)",
subtitle="Boxplots radiacion solar segun lluvia mañana")
p3

Como ven las medias difieren para ambos casos, pero esa informacion
ya la habiamos visto (ademas de muchas otras cosas que aca no) en los
density plots. No hay outliers / valores atipicos.
Ejercicio 4 Para hacer las ventanas moviles voy a primero transformar
el dataset en 1 y 0 a las categoricas, para poder luego tomar
promedios.
dftrain$RainToday = ifelse(dftrain$RainToday=="Yes",1,0)
dftrain$RainTomorrow = ifelse(dftrain$RainTomorrow=="Yes",1,0)
dftest$RainToday = ifelse(dftest$RainToday=="Yes",1,0)
dftest$RainTomorrow = ifelse(dftest$RainTomorrow=="Yes",1,0)
promediosMoviles = function(datosX, datosY, valor, h){
dfe = data.frame(datosX,datosY)
df2 = dfe[dfe$datosX >= valor-h & dfe$datosX <= valor+h ,]
while(nrow(df2)==0){
h = h*2 # Si no me agarra a nadie para promediar, aumentame la ventanita. No suele pasar, solo outliers o extremos
df2 = dfe[dfe$datosX >= valor-h & dfe$datosX <= valor+h ,]
}
if(mean(df2$datosY)>1/2 ){
return(1)
}
return(0)
}
promediosMoviles(dftrain$Sunshine, dftrain$RainTomorrow, 8, 0.1)
[1] 0
promediosMoviles(dftrain$Humidity3pm, dftrain$RainTomorrow, 85, 2)
[1] 1
Ejercicio 5 Nos creamos una funcion que nos genere todo el vector de
predicciones Yhat.
Vamos a evaluarlo con el metodo de validacion cruzada de LOO (dejar
uno afuera para entrenar y evaluarlo con ese).
leaveOneOut = function(datosX, datosY, h){
error = 0
for (i in (1: length(datosX))){
predichoI = promediosMoviles(datosX[-i], datosY[-i], datosX[i], h)
error = error + abs(predichoI - datosY[i])
}
return(error)
}
hPosibleHumedad = seq(1, 30, 0.5 )
hPosibleSunshine = seq(0.5, 10, 0.1 )
erroreshHumedad = c()
hum = dftrain$Humidity3pm
lluv = dftrain$RainTomorrow
for (i in (1: length(hPosibleHumedad))){
erroreshHumedad[i] = leaveOneOut(hum, lluv, hPosibleHumedad[i])
}
erroreshSunshine = c()
hum = dftrain$Humidity3pm
lluv = dftrain$RainTomorrow
sun = dftrain$Sunshine
for (i in (1: length(hPosibleSunshine))){
erroreshSunshine[i] = leaveOneOut(sun, lluv, hPosibleSunshine[i])
}
plot(hPosibleHumedad , erroreshHumedad, type = "l")

De aca vemos que la ventana optima para humedad es 1.
plot(hPosibleSunshine , erroreshSunshine, type = "l")

Mientras que la ventana optima para la radiacion solar es de 0.8
Ejercicio 6 ahora nos fijamos el error con el dataset de test que
separamos al principio para esta ventana
generarColumnaPrediccionesPromediosMoviles = function(datosX, datosY , h){
predicho = c()
for (i in (1: length(datosX))){
predicho[i] = promediosMoviles(datosX, datosY, (datosX[i]), h)
}
return(predicho)
}
yhat = (generarColumnaPrediccionesPromediosMoviles(dftest$Sunshine, dftest$RainTomorrow, 0.8))
res = sum(abs(yhat-dftest$RainTomorrow))/length(yhat)
print(paste("El porcentaje de error es ", res*100, "%") )
[1] "El porcentaje de error es 18.6868686868687 %"
---
title: "TP 2 Clasificacion"
output:
  html_notebook: default
  pdf_document: default
---
TP 2 Clasificacion.
Tomas Palazzo y Axel Fridman

Cargamos las librerias
```{r}
library("ggplot2")                  
library("GGally")
```

```{r}
df = read.csv("lluviaAus.csv")
```
Seteo de semilla random
```{r}
set.seed(329)
```

Limpieza y pre procesamiento de datos:
```{r}
df$RainToday = as.factor(df$RainToday) # paso variables categoricas como factor
df$RainTomorrow = as.factor(df$RainTomorrow)

df$X <- NULL # borro columna X ya que sospechamos que no representa nada sino que es algun tipo de "id" que quedo grabado en el dataframe y no tiene influencia en la observacion. 
```

Chequeamos que cada columna sea del tipo correcto
```{r}
str(df) 
```
Divido dataset en train y test
```{r}
sample <- sample(c(TRUE, FALSE), nrow(df), replace=TRUE, prob=c(0.8,0.2))
dftrain  <- data.frame(df[sample, ])
dftest   <- data.frame(df[!sample, ])
```

Analisis exploratorio de datos y visualizaciones:
```{r echo=TRUE, fig.height=20, fig.width=20, message=FALSE, warning=FALSE}
g = ggpairs(df, progress = FALSE, bins=10)+theme_bw()
g
```

Lo que observamos es que hay variables que estan muy correlacionadas linealmente, como la de temperatura maxima y temperatura a las 3pm. Y otras que parecen ser muy poco relacionadas como la humedad y la presion. 
```{r}
print(paste("Correlacion humedad y presion (baja) " , cor(df$Humidity3pm, df$Pressure3pm) ))
print(paste("Correlacion maxTemp y temp a 3pm (muy alta)" , cor(df$Temp3pm, df$MaxTemp) ))

```

Tambien notamos que aproximadamente 4/5 de las observaciones no llueve, tanto ese mismo dia como el siguiente.
```{r}

table(df$RainToday)
table(df$RainTomorrow)
```

Pero no son para nada independientes si llueve hoy y si llueve mañana. Ya que, si solo tuviera de informacion estas 2 columnas, dado que llovio hoy la nueva probabilidad de que llueva mañana es aproximadamente 65/(97+65) =aprox 40% mucho mas que el 20% naive. 
```{r}
dfLluvias = df[c("RainToday", "RainTomorrow")]
table(dfLluvias)
```

Ejercicio 2
```{r}
ggplot(df, aes(x=Sunshine, y=Humidity3pm, color=RainTomorrow)) +
  geom_point() 
```
Observamos cosas muy relevantes, los dias que va a llover mañana, tienen mayor humedad y menos sol, y los dias que no llovera mañana tienen todos mucho mas sol y la humedad en promedio es mas baja. A su vez hay varios dias, en su mayoria dias que llovera mañana, cuyo nivel de sol es 0, lo cual genera esa columna en el lado izquierdo. 
Tambien vemos que si bien hay muchos dias que tienen mucho sol y poca humedad (los dias que no llovera mañana), no vemos casi ninguna observacion con poco sol y poca humedad, lo cual nos podria hablar de cierta relacion humedad - sol. 
Nosotros pensamos que la humedad tiene mayor capacidad predictiva (si se tomara una sola y no en conjunto ambas), ya que la variable sunshine esta mucho mas dispersa para los dias que No llovio al dia siguiente, lo analizaremos en dos graficos de densidad.

```{r}
ps<-ggplot(df, aes(x=Sunshine, fill=RainTomorrow)) +
  geom_density(alpha=0.4) + labs(x= "Nivel de radiacion solar (Sunshine)",
       subtitle="Grafico densidad radiacion solar") + geom_vline(xintercept=7.8, size=0.5, color="red")
ps
```
```{r}
ph<-ggplot(df, aes(x=Humidity3pm, fill=RainTomorrow)) +
  geom_density(alpha=0.4) + labs(x= "Nivel de humedad (Humidity3pm)",
       subtitle="Grafico densidad humedad") + geom_vline(xintercept=62, size=0.5, color="red")

ph
```
Despues de ver estos 2 graficos notamos que no es facil dar un punto de corte para diferenciar las 2 clases solamente tomando una variable. Ya que si tomasemos aproximadamente 7.8 de punto de corte para la radiacion solar o 62 para la humedad como punto de corte, de todas formas tendrias bastante error ya que las clases se solapan mucho mirandolas unidimensionalmente. Tomamos estos valores de referencia como para decir que ningun corte es bueno, estos ni siquiera tienen en cuenta la diferencia de proporcion de clases. En definitiva no nos casamos con ninguna variable. 

Ejercicio 3.
Los boxplot no son buenos graficos. Pueden ocultar demasiada informacion cuando hoy en dia tenemos la capacidad de procesarla. 

```{r}
p2<-ggplot(df, aes(y=Humidity3pm, x=RainTomorrow, fill=RainTomorrow)) +
  geom_boxplot() + labs(x= "Nivel de humedad (Humidity3pm)",
       subtitle="Boxplots humedad segun lluvia mañana")
p2
```
```{r}
p3<-ggplot(df, aes(y=Sunshine, x=RainTomorrow, fill=RainTomorrow)) +
  geom_boxplot() + labs(x= "Nivel de radiacion solar (Sunshine)",
       subtitle="Boxplots radiacion solar segun lluvia mañana")
p3
```
Como ven las medias difieren para ambos casos, pero esa informacion ya la habiamos visto (ademas de muchas otras cosas que aca no) en los density plots. No hay outliers / valores atipicos. 

Ejercicio 4
Para hacer las ventanas moviles voy a primero transformar el dataset en 1 y 0 a las categoricas, para poder luego tomar promedios.
```{r}
dftrain$RainToday = ifelse(dftrain$RainToday=="Yes",1,0)
dftrain$RainTomorrow = ifelse(dftrain$RainTomorrow=="Yes",1,0)
dftest$RainToday = ifelse(dftest$RainToday=="Yes",1,0)
dftest$RainTomorrow = ifelse(dftest$RainTomorrow=="Yes",1,0)
```

```{r}
promediosMoviles = function(datosX, datosY, valor, h){
  dfe = data.frame(datosX,datosY)
  df2 = dfe[dfe$datosX >= valor-h & dfe$datosX <= valor+h ,]
  while(nrow(df2)==0){
    h = h*2 # Si no me agarra a nadie para promediar, aumentame la ventanita. No suele pasar, solo outliers o extremos
    df2 = dfe[dfe$datosX >= valor-h & dfe$datosX <= valor+h ,]
  }
  if(mean(df2$datosY)>1/2 ){
    return(1)
  }
  return(0)
}
```
```{r}
promediosMoviles(dftrain$Sunshine, dftrain$RainTomorrow, 8, 0.1)
```
```{r}
promediosMoviles(dftrain$Humidity3pm, dftrain$RainTomorrow, 85, 2)
```

Ejercicio 5 
Nos creamos una funcion que nos genere todo el vector de predicciones Yhat.

Vamos a evaluarlo con el metodo de validacion cruzada de LOO (dejar uno afuera para entrenar y evaluarlo con ese).

```{r}
leaveOneOut = function(datosX, datosY, h){
  error = 0
  for (i in (1: length(datosX))){
    predichoI = promediosMoviles(datosX[-i], datosY[-i], datosX[i], h)
    error = error + abs(predichoI - datosY[i])
  }
  return(error)
}
```

```{r}
hPosibleHumedad = seq(1, 30, 0.5 )
hPosibleSunshine = seq(0.5, 10, 0.1 )
```


```{r}
erroreshHumedad = c()
hum = dftrain$Humidity3pm
lluv = dftrain$RainTomorrow
for (i in (1: length(hPosibleHumedad))){
    erroreshHumedad[i] = leaveOneOut(hum, lluv, hPosibleHumedad[i])
}
```

```{r}
erroreshSunshine = c()
hum = dftrain$Humidity3pm
lluv = dftrain$RainTomorrow
sun = dftrain$Sunshine
for (i in (1: length(hPosibleSunshine))){
    erroreshSunshine[i] = leaveOneOut(sun, lluv, hPosibleSunshine[i])
}
```
```{r}
plot(hPosibleHumedad , erroreshHumedad, type = "l")
```

De aca vemos que la ventana optima para humedad es 1.

```{r}
plot(hPosibleSunshine , erroreshSunshine, type = "l")
```
Mientras que la ventana optima para la radiacion solar es de 0.8

Ejercicio 6
ahora nos fijamos el error con el dataset de test que separamos al principio para esta ventana
```{r}
generarColumnaPrediccionesPromediosMoviles = function(datosX, datosY , h){
  predicho = c()
  for (i in (1: length(datosX))){
    predicho[i] = promediosMoviles(datosX, datosY, (datosX[i]), h)
  }
  return(predicho)
}
```
```{r}
yhat = (generarColumnaPrediccionesPromediosMoviles(dftest$Sunshine, dftest$RainTomorrow, 0.8))
```
```{r}
res = sum(abs(yhat-dftest$RainTomorrow))/length(yhat)
print(paste("El porcentaje de error es ", res*100, "%") )
```

